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摘 要 : 针对 滑坡 危险 性 预测 中 降雨 等 不 确定 因素 不 能 有 效 刻画 及 处 理 和 现 有 的 OPTICS-PLUS 聚 类 算法 需要 设置 密 
度 冰 值 、 时 间 复 杂 度 高 等 问题 进行 了 研究 ， 为 了 提高 滑坡 危险 性 预测 准确 率 ， 提 出 一 种 不 确定 NNSB-OPTICS 聚 类 算 
法 并 应 用 于 滑坡 预测 中 。 首 先 对 OPTICS-PLUS 算法 扩张 策略 进行 优化 , 避免 了 人 工 设置 密度 阔 值 ， 提 高 了 算法 效率 ; 
然后 根据 降雨 量 数据 的 分 布 特征 ， 综 合 EW 型 距离 公式 和 云 模型 理论 ， 提 出 EC 型 距离 公式 ， 有 效 处 理 不 确定 数据 降 
雨量 ; 最 后 将 不 确定 NNSB-OPTICS 聚 类 算法 应 用 于 延安 市 宝塔 区 滑坡 危险 性 预测 中 ， 建 立 滑坡 危险 性 预测 模型 ， 滑 
坡 预测 精度 达到 89.7%。 实 验 结果 表明 ， 该 方法 能 够 有 效 提 高 滑坡 危险 性 预测 精度 ， 具 有 较 高 可 行 性 。 
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Research and application of uncertain NNSB-OPTICS clustering algorithm in 
landslide hazard prediction 


Mao Yinmin, Chen Huabin, Li Zhongli, Zhang Chanlong 
(School of Information Engineering Jianexi University of Science & Technology, Ganzhou Jiangxi 341000, China) 


Abstract: Since the rainfall and other uncertainties are difficult to obtain and effectively deal with in landslide hazard prediction, 
and the existence of setting density threshold and high time complexity in the OPTICS-PLUS algorithms, in order to improve 
the prediction accuracy, this paper proposed an uncertainty NNSB-OPTICS clustering algorithm and applied to landslide 
prediction. Firstly, the expansion strategy of OPTICS-PLUS algorithm is optimized, which avoids the manual setting of density 
threshold and improves the efficiency of the algorithm. Then, according to the distribution characteristics of rainfall data, 
combined with EW distance formula and cloud model theory, this paper puts forward EC distance formula, can deal with the 
uncertain rainfall data effectively. Finally, the uncertain NNSB-OPTICS clustering algorithm is applied to predict landslide 
hazard in Baota district of Yan’an city and the landslide prediction accuracy reaches into 87.9%. The experimental results show 
that this method can effectively improve the accuracy of landslide prediction and has high feasibility. 
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情况 综合 考虑 影响 滑坡 发 育 的 众多 关键 因素 ， 并 通过 这 些 因素 
之 间 的 相似 性 对 滑坡 数据 对 象 进行 分 类 ， 提 取出 潜在 的 有 用 信 

滑坡 是 分 布 最 为 广泛 、 发 生 最 为 频繁 的 地 质 灾害 之 一 ， 给 。 ” 息 争 , 因而 越 来 越 多 学 者 借助 聚 类 算法 在 滑坡 预测 中 展开 研究 。 
人 类 生存 和 发 展 带 来 了 严重 的 威胁 。 滑 坡 的 形成 受 多 种 因素 的 。 文献 [3] 运 用 模糊 K 均值 算法 对 道路 滑坡 和 非 道路 滑坡 的 地 形 
影响 ， 不 仅 包 括 地 形 地 貌 、 地 层 岩 性 和 坡 体 结构 等 基本 因素 ， 电 貌 进行 分 类 ， 结 合 GIS 技术 建立 了 美国 爱 达 荷 州 清水 国家 和 森 


0 引言 


A 


还 包含 具有 很 大 不 确定 性 的 降雨 和 人 类 活动 等 诱发 因素 趾 。 在。 林 公 园 的 滑坡 危险 性 概率 图 ， 证 明 该 方法 能 够 准确 预测 道路 相 
这 些 因 素 相互 综合 作用 下 ， 滑 坡 发 生 极 具 复杂 性 和 不 确定 性 ， 关 滑 坡 ， 对 道路 规划 有 重要 指导 意义 。 文 献 [和] 采用 K-means 聚 
E 类 区 


给 滑坡 危险 性 预测 带 来 很 大 困难 。 类 法 对 汶川 灾区 泥石流 滑坡 易 发 性 进行 划分 ， 获 得 五 个 子 类 ， 
聚 类 分 析 是 数据 挖掘 中 的 关键 技术 ， 能 够 在 无 先 验 样本 的 根据 专家 经 验 对 五 个 子 类 危险 等 级 进行 判定 ， 研 究 表明 K- 
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means 聚 类 算法 划分 危险 性 
较 高 ， 划 分 效 
料 为 基础 ， 选 择 具 有 代表 必 


去 和 APH 法 获 ] 


价 指标， 采用 


K-means 聚 类 算法 


预测 ， 预 测 结 呈 


对 
果 与 当地 滑坡 灾害 实 


较 好 。 文 献 [5] 以 湖北 省 巴 东 


等 级 的 预测 结果 与 实际 情况 一 致 性 
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1 不 确定 NNSB-OPTICS 聚 类 算法 


1.1 NNSB-OPTICS 聚 类 算法 设计 

OPTICS-PLUS 算法 是 对 OPTICS 算法 0 的 一 种 改进 ， 解 
决 了 OPTICS 算法 因 贪 心 搜索 策略 导致 稀疏 点 不 能 有 效 聚 类 的 
问题 ， 聚 类 准确 率 较 高 。 但 OPTICS-PLUS 算法 仍 需 要 用 户 输 


属性 数据 进行 处 理 


万 州 区 为 研究 对 象 ， 选 取 对 滑坡 影 


| 86216 个 预测 单元 的 滑坡 危险 等 级 进 
际 情况 基本 吻合 ， 能 够 对 

有 一 定 的 实用 价值 。 文 献 [6] 以 三 峡 库 
响 较 大 的 7 个 致 灾 因 子 作为 


评价 指标 , 使 面积 比 与 分 级 面积 比 曲 线 对 指标 因子 分 级 ， 
然后 使 用 K-means 聚 类 法 对 易 发 性 结果 进行 分 级 ， 并 基于 GIS 
平台 建立 易 发 性 区 划 图 ， 获 得 令 人 满意 的 预测 精度 。 文 献 [7] 分 
析 山 体 滑 坡 的 空间 分 布 和 变形 因素 提取 潜在 中 心 ， 使 用 潜在 中 
心 描 述 的 云 模型 理论 对 K-means 聚 类 算法 进行 改进 ， 根 据 数 # 


点 隶属 度 对 数 
三 峡 库 区 滑坡 预测 
很 好 的 预测 。 文 献 
算 对 滑坡 发 4 


8] 采 用 
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居 对 象 进行 肾 类 分 析 ， 并 ] 
中 ， 证 明 该 方法 能 够 对 区 域 滑坡 危险 性 半 
取 主 要 属性 和 阔 值 ， 计 


两 阶段 分 析 提 


j 的 焙 值 ,使 用 粒子 群 思想 优 


池 国 家 公园 为 


解决 了 KK-means 算法 容易 陷入 局 部 最 优 


竹 改 进 后 的 算法 应 用 


化 K-means 算法 ， 
的 问题 ， 以 台湾 苗 


区 绘制 敏感 度 图 


， 实 验证 明了 改进 的 K- 


取得 了 一 定 的 


means 算法 具有 更 高 的 预测 精度 。 这 
果 ， 但 远 未 达到 


再 原因 : a) 降 有 


不 确定 因素 是 滑坡 发 生 的 


1 让 人 满意 和 


类 算法 在 滑坡 预测 中 
程度， 存在 两 个 方 
E 要 因素 之 一 ， 这 些 


滑坡 预测 中 站 


聚 类 算法 侧重 于 对 连续 数值 属性 和 离散 型 数值 属性 的 处 理 


的 不 确定 数据 降雨 量 不 能 进行 
统 聚 类 算法 需要 预先 确定 聚 复 数目 k 和 


均匀 的 数据 无 法 有 效 处 理 ， 因 此 对 滑坡 数据 集 的 聚 类 效果 


度 不 够 SJ, 因 


了 效 刻画 ，b) 以 上 
聚 类 中 心 ， 对 于 分 布 不 


里 想 。 由 于 存在 以 上 原因 ， 传 统 聚 类 算法 的 滑坡 和 危险 性 预测 类 
需要 探索 一 种 新 的 方法 ， 在 适用 于 分 布 不 均匀 


数据 聚 类 的 
滑坡 危险 性 预 涡 
OPTICS-PLUS 到 类 算法 
比 于 基于 划分 的 K-means 算法 更 加 适用 了 
昌 在 聚 类 过 程 


匀 的 数据 聚 类 ， 


时 能 够 有 效 处 至 


略 ， 使 生成 的 可 达 民 
OPTICS-PLUS 算法 仍 存 在 难以 有 效 刻画 降 
密度 阔 值 ， 难 以 避免 人 的 主观 性 和 随意 性 对 滑坡 预测 结果 的 影 
响 , 时 间 复 杂 度 较 高 , 不 适合 对 大 规模 滑坡 数据 集聚 类 等 不 足 。 

对 此 ， 本 文 在 OPTICS-PLUS 算法 基础 上 进行 改进 
天 化 ， 提 出 一 种 基于 最 近邻 搜索 的 OPTICS 算法 
(nearest neighbor search based OPTICS, NNSB- OPTICS ); 然后 
E, 将 EW 型 距离 公式 00 和 云 模型 理 
公式 ,将 EC 型 距离 公式 引入 NNSB- 
定 NNSB-OPTICS 算法 ， 解 决 了 滑 
最 后 将 不 确 
又 滑坡 危险 性 预测 中 ， 


扩张 策略 进行 


根据 降 南 量 数 扩 


论 00 相 结合 提 


坡 预测 中 不 确定 数 
定 NNSB-OPTICS 
建立 滑坡 危险 性 


结构 更 加 清晰 ， 聚 


E 不 确定 数据 降 且 


9 是 一 种 基于 


类 


密度 的 聚 类 算法 , 相 
F 滑坡 预测 中 分 布 不 均 
采用 了 一 次 聚 类 结果 重组 织 策 
侍 确 率 较 高 。 但 


昌 的 分 布 特征 
出 EC 型 距离 
OPTICS 算法 中 ， 提 出 不 确 


降雨 有 


难以 有 效 刻画 的 问题 。 


算法 应 用 于 延安 
预测 模型 ， 证 明了 算法 可 行 性 和 有 效 性 。 


洞 星 ， 需要 用 户 输入 


i 量 ， 进 一 步 提高 


， 对 算法 的 


入 密度 冰 值 ， 难 以 避免 人 的 主观 性 和 随意 性 对 滑坡 预测 结果 的 
影响 ， 且 时 间 复 杂 度 较 高 ， 不 适合 对 大 规模 滑坡 数据 集聚 类 。 

为 此 本 文 在 OPTICS-PLUS 算法 基础 上 进行 改进 ， 提 出 
NNSB-OPTICS 聚 类 算法 ， 该 算法 首先 设计 了 一 种 全 局 的 最 近 
了 指针， 该 指针 始终 指向 种 子 队 列 中 最 近邻 距离 最 小 的 点 ， 算 
法 完成 一 次 扩张 后 取出 最 近邻 指针 指向 的 点 进行 下 一 次 迭代 ， 
不 需要 进行 排序 操作 ， 有 效 提高 时 间 效 率 ， 其 次 ， 提 出 一 种 点 
平均 距离 的 概念 ， 通 过 友 代 扩张 获取 每 一 个 数据 对 象 的 点 平均 
距离 ， 形 成 包含 数据 集聚 类 结构 信息 的 点 平均 距离 排序 ， 根 据 
点 平均 距离 排序 进行 可 将 数据 集 划分 为 若干 类 艇 ,避免 了 用 户 
设置 闷 值 ， 降 低 了 人 为 因素 对 滑坡 预测 结果 的 影响 。 为 方便 叙 
述 ， 对 于 给 定数 据 集 X ={2,2， 国 } 首先 给 出 如 下 定义 : 

定义 1 最 近邻 距离 。 设 存在 两 个 集合 M 和 AN， 
M N=X，M N=,vVmeM 的 最 近邻 距离 为 : 


人 ,N= 
ND,=1 
min{ DIS (m,n)},N 人 


A> 
坏 


定义 2 点 平均 距离 。 设 VX eX ， 尺 的 点 平均 密度 为 : 


Ddist(x,x)) 


ADP = 过 
n 


其 中 disi(%,x)) 为 X 中 尺 与 x 的 距离 。 

NNSB-OPTICS 聚 类 算法 通过 最 近 距 离 迭 代 扩 张 ， 生 成 一 
个 点 平均 距离 排序 队列 ， 分 析 点 平均 距离 排序 队列 中 点 平均 距 
离 的 陡峭 上 升 和 下 降 区域 ， 可 以 有 效 地 区 分 数据 点 密集 区 和 稀 
疏 区 ， 从 而 将 数据 集 划 分 为 若干 类 复 ， 避 免 了 人 为 设置 密度 阔 
值 来 划分 密集 区 和 稀疏 区 。 在 跌 待 扩张 过 程 中 ， 为 避免 多 次 排 
序 和 重复 计算 相似 度 降低 时 间 效 率 ，NNSB-OPTICS 算法 在 
OPTICS-PLUS 算法 基础 上 作出 以 下 两 点 改进 : a) 定义 了 一 个 
GPNP(global point to nearest point) 指 针 ， 如 图 1 所 示 ， 每 一 次 返 
代 都 记录 最 近邻 距离 最 小 的 点 ， 并 将 GPNP 域 指向 该 点 ， 下 一 
次 迭代 开始 时 , 直接 取出 GPNP 域 指向 的 点 进行 扩张 ; bj)NNSB- 
OPTICS 算法 为 每 个 对 象 额外 添加 一 个 SD(Sum of Distance) 域 ， 
记录 该 对 象 与 已 扩张 对 象 的 总 距离 , 求 取 某 对 象 点 平均 距离 时 ， 
直接 读 取 SD 域 中 的 总 距离 。 


NNSB-OPTICS 算法 在 OPTICS-PLUS 算法 基础 上 对 
OPTICS 算法 的 扩张 策略 进行 优化 ， 在 迭代 扩张 过 程 中 并 不 会 
对 已 扩张 的 数据 对 象 进行 比 较 ， 每 一 次 迭代 都 将 减少 一 个 比较 


对 象 


因此 算法 时 间 复杂 度 为 7() = O( 六 六 = OGP+m， 即 
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NNSB-OPTICS 算法 时 间 复 杂 度 为 O(n?), 与 OPTICS 算法 时 间 
复杂 度 "" 相 等 。 但 在 确定 算法 扩张 方向 时 ，0PTICS 算法 需要 对 
有 序 种 子 队 列 进行 排序 , 该 过 程 时 间 复 杂 度 为 0(r*)(r 为 种 子 
队列 长 度 ) “"，NNSB-OPTICS 算法 只 需 根 据 GPNP 指针 进行 
搜索 ， 取 出 GPNP 指针 指向 的 数据 对 象 进行 扩张 ， 时 间 复 杂 度 
为 O(r) ， 因 此 NNSB-OPTICS 算法 实际 效率 要 高 于 OPTICS 算 


法 。 


对 象 i 对 象 j 


六 


| [| 


与 结果 队列 的 总 距离 


图 1 NNSB-OPTICS 算法 数据 对 象 存储 结构 


毛 伊 敏 ， 等 : 


看 述 。 
正 态 模 站 
根据 扩张 原理 将 模糊 隶属 度 


由 取 邻近 的 1L(1=1,2,3 ) 个 不 确定 数 
数 的 c- 水 平 截 集 进行 模糊 化 ， 
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得 到 模糊 隶属 


居 取 值 区 间作 为 


函数 


线 扩张 成 云 共 


) ; 从 云 


加 加 Xx—a 
方程 为 =exp 


其 中 期 望 Ex 和 超 粒 He 计算 公 


期 诅 [ 


N 式 如 下 : 


Ex(x,)= a 


其 中 : a 为 云 共 
为 0; 的 均值 。 


线 方程 的 均值 ，o; 为 云 期 望 


线 中 得 出 云 模 型 数字 特征 ， 
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线 


的 方差 ， 


将 云 模 型 期 望 和 超 粹 引入 到 EW 型 距离 中 , 以 超 粹 代替 EW 


EC 型 距离 ， 公 式 如 下 : 


型 距离 中 的 取 值 区 间 宽 度 对 不 确定 数据 的 模糊 


生 进 行 


和 述 ， 得 


| » 1 
1 dct ) = EG) -El + 相克 CD ~ He(x,) ,p>1 
滑坡 的 发 生 受 多 种 因素 的 影响 ， 其 中 降雨 是 重要 的 诱发 因 对 于 离散 属性 和 连续 属性 ， 其 取 值 不 具有 模糊 性 ， 直 接 令 
素 ， 但 降雨 量 的 取 值 属 于 不 确定 数据 ， 只 能 确定 其 大 概 取 值 范 。 ”其 期 望 等 于 属性 值 , 超 人 等 于 0, 然后 使 用 EC 型 距离 公式 进行 
姑 ， 无 法 精确 描述 其 数值 大 小 由。 本 文 提出 的 NNSB-OPTICS ”距离 度量 ， 故 EC 型 距离 公式 适用 于 包含 离散 值 属 性 、 连 续 值 
聚 类 算法 适用 于 连续 性 和 离散 型 属性 数据 ， 但 不 确定 数据 降雨 遇 性 和 不 确定 属性 的 数据 集 。 
量 仍 不 能 进行 有 效 刻 画 及 处 理 。 为 此 本 文 引入 EW 型 距离 公式 。 1.3 不 确定 NNSB-OPTICS 聚 类 算法 设计 
和 云 模型 理论 ， 并 根据 降雨 量 数据 的 分 布 特征 ， 将 EW 型 距离 以 EC 型 距离 公式 作为 相似 度 计算 公式 ， 应 用 到 NNSB- 
公式 与 云 模型 理论 相 结 合 , 得 到 一 种 新 的 不 确定 数据 距离 公式 。 “OPTICS 聚 类 算法 中 ， 提 出 不 确定 NNSB-OPTICS 聚 类 算法 。 
定义 3 不 确定 数据 。 设 存在 映射 f 使 得 不 确定 NNSB-OPTICS 算法 具体 流程 如 下 所 示 。 


xeV=[v vi] vi>v 有 : fe[l01] ， 且 人 AD=0 ， 


三 7 =1, 三 7GD =0 则 , 称 为 不 确定 数据 , V 为 x 的 取 值 


区 间 ，f(X) 为 x 的 概率 密度 函数 。 

在 不 确定 数据 的 距离 度量 方面 ， EW 型 距离 是 不 确定 数据 
距离 度量 中 使 用 最 为 广泛 的 方法 。 对 于 给 定 不 确定 数据 
所 E[ 六 和 2sy]， 关 与 已 间 的 EW 型 距离 为 


disth, (Xi,X)) = tec -ECx)| + 了 wa) -了 Cj ,p21 


其 中 ; BEC)=O7+ 巡 )/2 和 Ex)=(O7+ 二 /2 分 别 为 立 和 总 的 
期 望 值 ， 现 00)=( 凡 -三 )/2 和 W(x))=( 让 一 万)/2 分 别 为 和 
Xj 的 宽度 。 

EW 型 距离 认为 不 确定 数据 在 取 值 区 间 内 服从 均匀 分 布 ， 
从 而 综合 了 不 确定 数据 的 期 望 和 区 间 宽 度 来 度量 不 确定 数据 间 
的 距离 。 但 本 文 研究 的 不 确定 数据 降雨 量 在 其 取 值 区 间 内 近似 
服从 正 态 分 布 09， 故 EW 型 距离 不 能 直接 用 于 降雨 量 刻画 中 。 
根据 延安 气象 调查 局 数据 显示 ， 相 邻 地 域 降雨 具有 相似 的 降雨 


量 ， 根 据 这 一 性 质 ， 根 据 绥 德 气象 调查 局 数据 显示 ， 相 邻 地 域 
降雨 具有 相似 的 降雨 量 ， 根 据 这 一 特性 ， 可 以 采用 逆向 云 算法 


1， 获取 降雨 量 % 对 应 的 正 态 云 模型 数字 特征 ,对 鸭 进 行 定性 


算法 : NNSB-OPTICS 算法 


1 


输出 结果 队列 OyqerList 


输入 : 数据 集 X = {x， 


(1) FOR ALL peX DO 

(1.1) 计算 p 各 属性 的 期 望 和 超 粮 
(2) OrderList 8’ 
G3) WHILE(X #@) 


(3.13 从 文 中 


取出 p 二 x 


GPNP 


G3.2) JF(X=@) 


令 GPNP 指向 任意 点 


并 仿效 这 V{xopns} 


G3.2.1) ADP, < SD, /n， 将 p 添加 到 OyderList 末尾 


(3.3) FOR ALL geX DO 


(3.3.1) 计算 p 与 g 的 距离 gist,_(p,g)， 


SD, ¢ SD, + distsc (p,q) 
3.3.2) IF(distsc (p,q9) < DNP,) 
(a) DMP ¢- distsc (p,q) 

(b) 令 PNP, 指向 p 


(©) S GPNP «PNP, 


G3.4) 令 ADP, < SD, /n， 将 p 加 入 到 OrderList 末尾 


(4) 根据 PNP 指向 对 OrderList 进行 重组 


(5) RETURN OrderList ， 算 法 结束 


并 令 SD, < SD, + distsc (p,q4) ， 
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2 ”实验 结果 与 分 析 A ts i iii a 
了 育 类 准确 率 。 但 是 从 最 优 结 果 显示 , 在 Iris 数据 集 和 Wine 数 

2.1 实验 环境 据 集 上 ， 不 确定 NNSB-OPTICS 算法 的 最 优 结 果 要 低 于 
本 文 实验 均 在 Win7 操作 系统 ,Intel(R) Core(TM)i5-4210U ”OPTICS-PLUS 聚 类 算法 , 这 是 因为 Iris 数据 集 的 1 类 样本 点 与 
2.80GHz CPU，8G 内 存 计算 机 中 进行 。 滑 坡 实验 数据 使 用 2 类 样本 点 、Wine 数据 集 3 类 样本 点 均 存 在 数据 交叉 ， 且 交叉 
ARCGIS10.3 软件 提取 ,数据 库 平 台 为 Oracle 12c, 算法 由 Python ”部 分 数据 密度 分 部 变化 较 小 ， 导 致 NNSB-OPTICS 聚 类 算法 生 


语言 在 PyCharm5.03 平台 中 测试 。 产 的 点 平均 距离 排序 波动 平缓 ， 类 簇 识别 效果 较 差 ， 这 是 
2.2 ”仿真 实验 NNSB-OPTICS 聚 类 算法 需要 进一步 改进 的 地 方 。 从 表 3 中 各 
为 了 验证 本 文 算法 的 聚 类 有 效 性 ， 将 NNSB-OPTICS 算法 算法 时 间 效 率 比 较 上 看 ，NNSB-OPTICS 聚 类 算法 单 次 运行 时 


分 别 与 OPTICS 算法 0 、OPTICS-PLUS 算法 由、 和 EOPTICS 间 时 间 最 少 ， 时 间 效 率 上 具有 明显 的 优势 。 


算法 “在 4 个 UCI 数据 集 上 进行 对 比 实验 ， 数 据 集 特征 如 表 1 表 2 各 算法 聚 类 准确 率 比较 /96 

所 示 。 实 验 主要 针对 算法 聚 类 准确 率 、 聚 类 结果 稳定 性 和 时 间 Gis Wine 
效率 等 方 面 进行 测试 。 Ea MPmaxMPmin MPmean MPmaxMPmin MPmean 
表 1 实验 选用 UCI 数据 集 特征 OPTICS 77.52 69.85 74.82 85.5 80.33 83.46 
数据 集 ”样本 数量 ”数据 维 数 ”类 别 数 EOPTICS 77.86 72.39 75.72 87.13 83.08 85.08 
Iris 150 4 3 OPTICS-PLUS 80.36 75.61 77.23 88.49 83.21 85.75 
Wine 178 13 3 NNSB-OPTICS 78.64 76.32 77.9 88.21 86.45 87.72 

Seed 210 7 3 Balance Seed 

算法 

Balance 625 4 3 MPmaxMPmin MPmean MPmaxMPmin MPmean 


OPTICS 82.43 75.38 78.55 83.01 76.33 79.92 


本 文采 用 Micro-precision 标准 ， 利 用 数据 分 类 信息 来 衡量 
聚 类 结果 准确 率 ， 计 算 公 式 如 下 : 


EOPTICS 83.59 76.27 80.16 85.72 77.6 81.54 


OPTICS-PLUS 84.4 79.68 82.71 86.97 82.17 85.16 


1 h=k 


MP=— > a, NNSB-OPTICS 84.67 81.31 83.74 87.36 84.93 86.28 

表 3 各 算法 单 次 运行 时 间 比 较 /ms 
其 中 : w% 表示 正确 聚 类 的 样本 点 数量 ，N 为 数据 集 样本 点 总 数 ， 本 RE 
a ee 
和 下 人 = ee 0 OPTICS-PLUS 437 551 804 5618 
nn PA 
数 Eps ， 然 后 设 定 实验 中 领域 半径 的 取 值 集合 为 ES 
{MinPts 一 2,MinPts,MinPts+2} ， 领 域 半 径 取 值 集 合 为 


{Eps 一 0.15, Eps, Eps +0.15} ， 最 后 对 领域 半径 和 核心 点 数 进行 在 UCI 数据 集 上 的 实验 结果 表明 , 相 比 OPTICS 聚 类 算法 、 
组 合 ， 获 得 9 组 参数 ， 每 组 参数 运行 10 次 ， 共 计 90 次 实验 。 OPTICS-PLUS 聚 类 算法 和 EOPTICS 聚 类 算法 , NNSB-OPTICS 
为 了 更 好 的 分 析 算 法 的 准确 率 和 稳定 性 ， 记 录 最 优 结果 MP 聚 类 算法 能 够 更 加 有 效 地 避免 人 为 因素 对 聚 类 结果 的 影响 ， 聚 
和 最 差 结果 MP , 并 计算 多 次 实验 的 均值 MA ，MRA 计算 ”类 稳定 性 较 高 ， 且 时 间 效 率 较 优 。 


公式 如 下 : 2.3 实例 应 用 
B 1 万 多 为 了 验证 不 确定 NNSB-OPTICS 算法 在 滑坡 危险 性 预测 中 
= 0 ， 上. yy DO EE 
TN 全 入 否 具有 可 行 性 以 及 本 文 提出 的 不 确定 数据 处 理 方法 能 否 有 效 


渤 部 


其 中 : 7 为 实验 重复 次 数 , 本 文 实验 中 7 =90。 各 算法 在 UCI 数 
据 集 上 聚 类 准确 率 和 单 次 运行 时 间 如 表 2、3 所 示 。 也 处 陕 北 黄土 高 原 中 部 ， 地 质 条 件 复杂 ， 人 类 活动 
表 2 的 实验 对 比 结果 可 以 看 出 ， 在 4 个 UCI 数据 集 上 ， ， 降 雨 等 影响 因素 导致 滑坡 发 生 频率 较 大 ， 人 类 生命 安全 
NNSB-OPTICS 聚 类 算法 的 平均 准确 率 均 要 优 于 其 他 三 个 算法 ， ”和 财产 受到 巨大 的 威胁 。 降 雨 不 确定 因素 在 实际 滑坡 危险 性 预 
从 最 优 结果 和 最 差 结 果 差 值 的 对 比 上 看 ，NNSB-OPTICS 聚 类  ” 测 过 程 中 难以 有 效 刻画 ， 根 据 本 文 不 确定 数据 处 理 的 方式 对 降 
算法 差 值 明显 较 小 ， 说 明 NNSB-OPTICS 聚 类 算法 聚 类 准确 率 ” 雨 进行 处 理 , 结合 滑坡 相关 理论 基础 , 将 不 确定 NNSB-OPTICS 
较 高 且 聚 类 结果 稳定 性 较 好 , 原因 有 二 : 其 一 ，NNSB-OPTICS 聚 类 算法 应 用 到 宝塔 区 滑坡 危险 性 预测 研究 中 ， 验 证 不 确定 
算法 避免 了 人 为 设置 密度 阔 值 ， 减 小 了 人 为 因素 对 聚 类 结果 的 NNSB-OPTICS 聚 类 算法 在 滑坡 危险 性 预测 中 的 可 行 性 。 

影响 ; 其 二 , NNSB-OPTICS 算法 扩张 完成 后 , 根据 最 近邻 指向 


降雨 量 ， 选 取 延 安 市 宝塔 区 作为 研究 区 进行 实例 验证 。 延 


对 

泪 图 
勤 
义 | 


湾 


2.3.1 数据 来 源 及 数据 预 处 理 


又 地 质 灾 害 详细 调查 项 目 为 背景 ， 进 行 滑坡 危 


究 。 实 验 数 
3 栅 格 划分 模块 ， 划 分 网 格 
区 划分 为 5672922 个 网 格 单元 。 每 个 网 
导入 到 精度 为 1:5000 数字 高 程 图 中 ， 派 生 
题 图 ， 再 从 这 些 专 题 医 
I 数据 信息 ; 岩 土 体 结构 数 扩 
值 来 源 于 如 
F 从 Spot 近 


局 


采用 ARCGIS 软 伯 


格 


工 外 波段 B3 和 可 见 光 纪 


归 一 化 差 值 计算 获取 ; 降 


& 
六 
五 


量 以 及 从 气象 十 


图 中 获取 未 来 7d 的 24h 降雨 量 。 
4 原始 数据 集中 样本 数目 多 达 数 百 万 条 ， 包 
包含 大 量 缺失 值 、 


i 水 


El 


I 准确 率 ， 需 要 对 原始 数据 集 进行 数 ] 


NS AS 


里 论 以 及 黄土 高 原 特殊 的 


质 环境 发 4 


局 QH 


灌 


作 ， 保 留 坡度 、 坡 高 、 坡 向 、 


直 是 采用 滑坡 发 生前 7d 的 24h 降 


植被 、 坡 型 、 


各 EE 
十 等 7 个 属性 


| 除 其 


FE 属性， 滑坡 危险 等 级 
] 较 小 的 属性 项 。 


| 除 包含 缺失 值 、 、 错 误 值 的 记录 。 经 
后 ， 获 得 有 效 的 记录 数据 5647382 条 ， 数 据 
E 如 表 4 所 示 。 


毛 伊 敏 ， 等 : 


将 延 
尺寸 大 小 为 SmXSm， 把 
和 元 看 成 一 个 点 ， 
H 坡 型 、 坡 度 、 
分 别 获取 坡 型 、 坡 度 、 
居 从 1:10000 


地 质 图 中 获取 ; 
采用 ERDAS 遥感 
[波段 B2 进行 


合 属 1 
E 复 值 、 错 误 值 。 为 了 提高 
局 预 处 理 操作 ，。 
= 灾害 的 特 


A 


型 属性 取 值 
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滑坡 危险 等 级 


低 ， 较 低 ， 高 ， 较 高 


， 思 型 ， 阶 梯 型 ， 


于 水 平 古 土壤 层 型 ， 


项 斜 古 土壤 层 型 


二 + 基 岩 型 ， 


新 近 纪 泥岩 型 


低 危 ， 中 危 ， 高 危 


通过 识别 点 平均 距离 排序 中 的 陡峭 上 升 和 
果 ， 获 得 个 类 簇 。 


FP 所 有 评价 单元 被 站 


输 


仙山 


经 过 聚 类 后 ， 滑 坡 样本 数据 


进行 下 一 次 
Be 获得 一 引 


2.3.2 不 确定 NNSB-OPTICS 聚 类 算法 模型 构建 
首先 按照 式 (1)(2) 计 算数 据 集 
炉 ， 然 后 初始 化 结果 队列 为 空 ， 从 数 提 
过 本 文 提出 的 EC 型 距离 度量 公式 计算 新 各 对 象 之 间 的 距离 ， 
一 次 迭代 完成 后 按照 GPNP 指针 的 指 
居中 所 有 对 象 加 入 到 结果 队列 
9 距离 排序 的 点 平均 距离 排序 队列 ,最 


hb 各 对 象 的 云 模型 均值 和 超 
昌 集 中 任意 对 象 出 发 ， 通 


迭 代 扩 张 ， 
发 包含 点 平 
后 采用 Gmdlent Clusterin 


降 的 


| 分 到 KK 


个 类 入 中 ， 根 提 


居 聚 类 算法 1 


ChinaXiv 合 作 期 刊 


不 确定 NNSB-OPTICS 聚 类 算法 在 滑坡 危险 性 预测 中 的 研究 与 应 用 


生 质 可 知 ， 同 一 类 艇 内 的 对 象 具 有 较 


高 的 相似 性 ， 不 同类 艇 间 的 对 象 具 有 较 高 的 相 异 度 ， 即 同一 类 


艇 中 的 评价 单元 具有 相似 
， 相 似 的 滑坡 发 育 特征 具有 相似 的 滑坡 发 生 趋势 ， 根 据 这 


党 


证 


的 地 形 地 貌 、 气 候 环境 特征 。 文献 [20] 


里 论 ， 利 用 野外 勘测 到 的 区 域 含有 降 


信息 的 293 个 滑坡 观 


测 点 的 已 知 危 险 性 等 级 ,结合 直接 搜索 法 和 专家 评价 法 RU 可 快 


速 确定 各 类 簇 的 滑坡 危险 性 等 级 。 通 过 直接 搜索 法 ， 逐 一 搜索 


各 类 簇 中 的 评价 单元 ， 若 含有 一 个 已 确定 的 危险 性 等 级 时 ， 类 


簇 的 危险 性 等 级 等 同 ] 


F 类 簇 内 评价 单元 的 危险 性 等 级 ， 若 含 


两 个 及 以 上 已 确定 的 危险 性 等 级 且 类 簇 内 评价 单元 的 危险 性 不 


同等 级 的 数目 不 局 


单元 的 危险 性 不 同 
性 等 级 ， 则 通过 滑坡 灾 


时 ， 类 簇 的 危险 性 等 级 通过 少数 服从 多 数 原 
则 确定 ， 若 含有 两 个 及 以 上 已 确定 的 危险 性 等 级 且 类 簇 内 评价 
的 数目 相同 时 或 含有 零 个 已 确定 的 危险 
专家 利用 先前 的 滑坡 预 判 经 验 以 及 对 
区 域 地 质 环境 条 件 的 熟知 程度 ， 结 合 区 域 地 质 调 查 结果 判定 滑 


坡 危险 性 等 级 , 从 而 划分 


2.3.3 评价 标准 


出 研究 区 剩余 评价 单元 的 危险 性 等 级 。 


通过 对 研究 区 滑坡 实际 调查 数据 和 滑坡 预测 结果 统计 建立 
误差 矩阵 。 在 误差 矩阵 中 ， 列 表示 实际 观测 值 ， 和 矩阵 行 表示 通 
过 预测 模型 获得 的 预测 值 ， 例 如 预测 值 为 低 危 ， 观 测 值 是 低 危 


的 样本 数量 用 i, 表示 , 预测 值 为 低 危 , 观测 值 为 中 危 的 样本 数 


二 看 


表示 。Kappa 系数 PC 是 一 种 较为 简单 .准确 度 较 高 的 评价 方法 ， 
基于 误差 矩阵 的 Kappa 系数 精度 评价 方法 能 够 在 统计 意义 上 反 
E。Kappa 系数 计算 公式 为 


其 中 : Pn 是 预测 模型 的 总 体 精 度 (overall accuracy)， 表 示 数 据 


外 


为 1。 


量 用 已 表示， 预测 4 


直 为 低 危 ， 观 测 值 为 高 危 的 样本 数量 用 BB， 


决 分 类 结果 的 优越 怕 


> (P， “ | 
一 
Kappa = NV (4) 
> CR Pi) 
] -二 1 
N? 
Pi 
Pi Se 2 100% (3) 


集中 预测 值 和 观测 值 相 一 致 的 概率 ，B, 表示 第 i 行 记录 总 数 ， 
;表示 第 i 列 记录 总 数 ,N 为 样本 数量 , n 为 分 类 的 类 型 数量 ， 
在 本 实验 中 取 值 为 3。Kappa 系数 取 值 在 区 间 [0,1] 中 ， 当 数 
据 集中 所 有 样本 预测 值 与 观测 值 完全 吻合 时 ，Kappa 系数 的 值 


2.3.4 滑坡 预测 精度 评价 分 析 与 比较 


为 验证 本 文 提 昌 


的 不 确定 数据 处 理 方法 是 否 能 够 有 效 处 理 


降雨 量 数据 ， 提 高 滑坡 预测 精度 ， 分 别 使 用 NNSB-OPTICS 聚 
类 算法 和 不 确定 NNSB-OPTICS 聚 类 算法 建立 滑坡 预测 模型 ， 


对 延安 市 宝塔 区 进行 滑坡 危险 性 预测 .对 于 不 确定 数据 降雨 量 ， 


不 确定 NNSB-OPTICS 滑坡 预测 模型 采用 式 (1) (2) 获得 降雨 
量 云 模型 数字 特征 ， 然 后 采用 式 (3) 进行 相似 度 计算 ; NNSB- 


录用 稿 


hinaXiv 合 作 期 刊 


毛 伊 敏 ， 等 : 不 确定 NNSB-OPTICS 聚 类 算法 在 滑坡 危险 性 预测 中 的 二 完 与 应 用 


OPTICS 聚 类 算法 采用 传统 滑坡 预测 中 处 理 降 雨量 所 使 用 的 定 


法 人 3 进行 离散 化 ， 即 将 降雨 划分 为 以 下 几 类 : 小 雨 (20 mm 
以 下 ), 中 雨 (20~44.9 mm), 大 雨 (45~59.9 mm)， 暴 
mm)， 大 暴雨 (80~99.9 mm)， 特 大 暴雨 (100 mm 以 上 ) ,并 分 
别 以 数值 代替 ， 采 用 欧 氏 距离 进行 相似 度 计 算 。 宝 塔 区 地 质 灾 
害 灾 害 观测 点 有 428 处 ， 其 中 有 滑坡 观测 点 有 293 个 ， 在 数据 
预 处 理 阶段 , 所 有 滑坡 观测 点 被 栅 格 化 为 1367 个 评价 单元 , 其 
中 包含 低 危 评价 单元 311 个 ， 中 危 评价 单元 729 个 ， 高 危 评 价 
单元 327 个 。 对 NNSB-OPTICS 滑坡 危险 性 预 涡 
NNSB-OPTICS 滑坡 危险 性 预测 模型 预测 结果 进行 统计 ， 获 得 
误差 矩阵 ， 如 表 5 所 示 。 


表 5 两 种 预测 模型 滑坡 危险 性 预测 误差 矩阵 


预测 观测 ” 低 危 中 和 危 高 危 预测 总 和 


造成 信息 丢失 的 不 足 ， 能 够 更 加 有 效 刻画 降雨 量 数据 ， 在 一 定 


潮 (60~79.9 


居 降 雨量 且 对 分 布 不 均匀 的 数据 聚 类 效果 较 差 ， 对 此 ， 本 文 首 
先 引 入 一 种 基于 密度 的 OPTICS-PLUS 算法 ， 并 针对 该 算法 需 
要 人 工 设 置 密度 阀 值 、 时 间 复 杂 度 高 等 不 足 ， 提 出 NNSB- 
OPTICS 聚 类 算法 ， 然 后 考虑 的 降雨 量 数据 的 分 布 特征 ， 结 合 
EW 型 距离 公式 和 云 模 型 理论 提出 EC 型 距离 公式 , 将 EC 型 距 


模型 和 不 确定 


程度 上 提高 了 滑坡 危险 性 预测 精度 。 


结束 语 


传统 聚 类 算法 在 滑坡 和 危险 性 预测 中 不 能 有 效 刻 画 不 确定 数 


离 公 式 应 用 到 NNSB-OPTICS 中 ， 提 出 不 确定 NNSB-OPTICS 
聚 类 算法 ， 解 决 了 降雨 量 数据 难以 有 效 刻 画 及 处 理 的 问题 。 通 
过 实例 滑坡 危险 性 预测 证 明 本 文 提出 的 不 确定 数据 处 理 方法 能 


| 


低 危 254 47 22 322 
NNSB-OPTICS 
中 危 41 652 43 736 
聚 类 模型 本 
高 危 16 31 262 309 


观测 总 和 ”311 729 327 1367 


预测 观测 ” 低 危 “中 危 “ 高危” 预测 总 和 


低 危 263 31 12 306 
不 确定 NNSB-OPTICS 
中 危 35 674 26 735 
聚 类 模型 加 
高 危 13 24 289 326 


观测 总 和 ”311 729 327 1367 


Kappa 


结合 表 6 和 式 (4) (5) 进行 计算 ,可 得 NNSB-OPTICS 算 


法 聚 类 算法 滑坡 预测 模型 总 体 精度 和 天 appa 系数 为 


_ 254+652+262 
1367 


x100% = 85.4% 


Pr 


0.854—(322x311+736x729+309x327)/1367”_ 
1—(322x311+736x729+309x327)/1367? 


不 确定 NNSB-OPTICS 算法 总 体 精度 和 Kappa 系数 为 


_ 263+674+289 
1367 


x100% = 89.7% 


Io 


_ 0.897—(306x311+735x729+326x327)/1367”_ 
1—(306x311+735x729+326x327)/1367? 


计算 结果 表明 ,两 种 滑坡 预测 模型 的 总 体 精度 都 高 于 80%， 


0.83 


更 加 有 效 刻 画 降 雨量 ， 提 高 滑坡 预测 精度 。 
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